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[ 目的 /意义 ] 提 出 领域 核心 研究 主题 识别 及 其 演化 路 径 可 视 化 方法 ,以 期 为 领域 主题 演化 分 析 研 究 提供 借鉴 ,对 
于 揭示 领域 核心 主题 的 演化 特征 与 发 展 规律 具有 一 定 的 意义 。 [ 方法/ 过程] 利用 LDA 模型 进行 主题 识别 ,结合 
多 维 尺度 分 析 和 可 视 化 技术 将 LDA 主题 识别 结果 映射 到 二 维 空间 ,识别 主题 之 间 的 关联 关系 ,确定 核心 主题 、 次 
要 主题 ;利用 主题 相似 度 算法 探测 相 邻 时 期 主题 之 间 的 关联 ,提出 一 种 新 的 可 视 化 展示 方法 ,构建 不 同类 型 研究 
主题 的 交叉 演化 路 径 ,以 揭示 核心 主题 次 要 主题 在 演化 过 程 中 的 动态 变化 。[ 结果 /结论 ] 以 我 国医 疗 健康 信息 
领域 为 例 进 行 实证 研究 ,研究 结果 发 现 ,我 国医 疗 健康 信息 领域 核心 研究 主题 主要 有 电子 健康 档案 、 互 联网 医疗 
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等 ,其 中 ,健康 管理 智慧 医疗 等 核心 主题 呈现 良好 的 发 展演 化 趋势 。 
可 视 化 方法 ”医疗 健康 信息 


CA 近年 来 ,利用 关键 词 词 频 分 析 ( Keyword frequency 
afaNsis) 、 共 词 分 析 (Co-word analysis) ,引文 分 析 ( Cita- 
tigmenalysis ) ,主题 探测 与 追踪 (Topic detection and 
traeking) 和 主题 演化 (Topic evolution) 等 不 同 的 方法 来 
舍 压 领域 中 的 研究 主题 及 其 发 展 趋势 ,成 为 国内 外 
情 办 学 研究 的 热点 。 但 现 有 的 研究 多 基于 Citespace、 
Ursinet 和 SPSS 等 软件 工具 进行 学 术 论文 的 研究 主题 
识别 及 其 发 展 趋 势 分 析 , 随 着 数据 量 以 及 用 户 细 粒 度 
需求 的 变化 , 共 词 网 络 .引文 网 络 等 宏观 .静态 结果 逐 
渐 难以 满足 学 科 情报 分 析 需 求 ”。 

目前 ,基于 主题 类 型 划分 的 研究 主题 演化 动态 路 径 
及 其 时 序 变迁 的 研究 成 果 较 少 ,为 弥补 这 一 不 足 ,本 文 
首先 研究 了 核心 研究 主题 识别 及 其 演化 路 径 可 视 化 分 
析 方 法 ,提出 了 构建 核心 主题 和 次 要 主题 两 种 不 同类 型 
研究 主题 的 交叉 演化 路 径 的 一 种 新 的 可 视 化 方法 ,以 
CNKI 期 刊 全 文 数据 库 医疗 健康 信息 领域 的 论文 数据 进 
行 实证 分 析 , 并 应 用 可 视 化 分 析 结 果 具 体 分 析 了 医疗 健 
康信 息 领 域 核心 主题 和 次 要 主题 的 演变 过 程 。 


1 文献 综述 
1.1 主题 识别 

主题 识别 是 指 利 用 文献 计量 .自然 语言 处 理 等 方 
法 技术 对 科技 文献 中 的 研究 主题 进行 挖掘 分 析 。 目 前 
主题 识别 主要 有 基于 共 词 网 络 、 社 区 探测 和 LDA (La- 
tent Dirichlet Allocation ) 主题 模型 等 几 种 方法 和 模型 ， 
相关 研究 如 :A，D.，Ritzhaupt 等 ”运用 共 词 网 络 分 析 
方法 进行 主题 识别 ,并 利用 该 方法 分 析 了 北美 地 区 远 
程 教育 的 主要 研究 主题 及 其 发 展 趋势 ; 程 齐 凯 等 ” 提 
出 基于 社区 探测 模型 的 主题 识别 方法 ; 王 效 岳 等 后 提 
出 基于 LDA 模型 的 学 科 主 题 识别 方法 ,并 利用 美国 国 
家 自然 基金 资助 的 基金 项 目 数据 进行 了 实证 研究 , 验 
证 了 方法 的 可 行 性 。 
1.2 ”主题 演化 

主题 演化 是 指 期 刊 论文 中 蕴含 的 研究 主题 在 时 间 
维度 上 的 动态 变化 过 程 , 它 主要 描述 了 某 领域 研究 主 
题 在 一 定时 间 内 的 成 长 分裂. 融合 .衰退 等 状态 ,有 助 
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于 揭示 研究 的 现状 .变化 和 趋势 。 如 何 从 海量 的 学 术 
论文 中 准确 .有 效 地 识别 研究 主题 的 演化 脉络 并 进行 
可 视 化 展示 成 为 目前 亟 需 解决 的 问题 。 目 前 很 多 学 者 
开展 了 主题 演化 研究 ,研究 成 果 如 :李湘 东 等 ”提出 一 
种 基于 LDA 模型 的 科技 期 刊 主题 演化 分 析 方 法 ,引入 
时 间 因 素 ,基于 LDA 主题 识别 及 JS 散 度 计算 结果 实现 
主题 在 强度 、 内 容 两 方面 的 演化 ; 刘 自 强 等 "提出 了 多 
维度 视角 下 的 主题 演化 分 析 方 法 ,构建 了 主题 强度 、 主 
题 结 构 和 主题 内 容 三 个 维度 的 主题 演化 模型 ,通过 对 
国内 图 情 领域 的 大 数据 研究 领域 的 实证 研究 验证 了 该 
方法 的 准确 性 和 有 效 性 ; 周 源 等 中 将 期 刊 论文 外 部 特 
征 ( 作 者 ) 融 入 主题 分 析 中 ,基于 加 权 雅 可 比 相似 度 算 
法 构建 了 作者 - 主题 的 演化 模型 ,能 够 分 析 某 一 研究 
书 题 在 不 同时 期 下 的 影响 力 较 高 的 学 者 。 

1, > 主题 演化 路 径 可 视 化 

一 数据 挖 气 、 可 视 化 领域 的 研究 人 员 针 对 主题 演化 
伐 叶 大 量 研究 ,提出 了 众多 主题 演化 可 视 化 方法 、 工 
县 悦 比如 :S. Havre 等 名 提出 ThemeRiver 可 视 化 模型 
横 辆 表示 时 间 ,不 同 颜色 的 线条 表示 主题 ,并 通过 粗细 
琢 吉 主题 在 不 同时 间 窗口 下 的 强度 ,展示 某 领域 的 束 
体 于 是 演化 脉络 ;M. Rosvall Sebi 基于 冲积 图 (Alluvial 
DIEBiam) 提出 一 种 社区 主题 演化 可 视 化 分 析 方法 ,将 
不 同时 期 窗口 下 的 社区 展示 在 横向 时 间 维 度 上 ,并 以 
不 出 颜色 的 线条 表示 社区 演化 路 径 ; 王晓光 等 5 开发 
2 坚 于 共 词 网 络 分 析 的 主题 演化 可 视 化 分 析 软 件 Nev- 
iey 电 ,提供 赋 色 网 络 图 ,冲积 图 绘制 功能 ,可 以 有 效 揭 
示 主 题 演化 的 宏观 过 程 和 微观 细节 ; 件 冬 梅 等 ”六 将 
“所 计 学 "理论 .社会 网 络 分 析 方法 .学 科 知识 结构 理 
论 和 知识 图 谱 技术 进行 集成 优化 和 协同 整合 ,并 根据 
知识 结构 的 高 .中 、 低 三 个 不 同 层级 ,针对 性 地 探讨 揭 
示 不 同 层级 知识 结构 的 方法 流程 ,为 学 科 结构 可 视 化 
分 析 提 供 了 理论 基础 ;同时 牟 冬 梅 等 ”利用 时 间 - 
关键 词 共 现 分 析 构 建 时 间 - 关键 词 二 维和 矩阵 ,采用 聚 
类 分 析 .社会 网 络 分 析 、 时 序 词 频 统计 和 主题 分 类 4 种 
方法 对 时 间 - 关键 词 二 维和 矩阵 进行 可 视 化 ,对 LIS 领 
域 学 科 动 态 知识 结构 进行 多 维度 分 析 , 并 基于 时 序 分 
析 、 主 题 - 关键 词 共 现 分 析 构建 2 - 模 网 络 ,利用 Net- 
Draw 对 各 主题 演化 模式 进行 可 视 化 呈现 。 

通过 对 现 有 的 研究 成 果 的 分 析 发 现 :在 主题 识别 
方面 ,目前 的 研究 大 多 进行 静态 主题 识别 ,对 于 主题 之 
间 的 相对 重要 性 分 析 不 足 。 实 际 上 主题 在 不 同时 间 段 
内 主题 之 间 存在 主 \ 次 关系 ,将 研究 主题 等 同 看 待 一 定 
程度 上 限制 了 学 科 现状 及 其 发 展 趋势 分 析 的 准确 性 和 


一 


有 效 性 ;在 主题 演化 方面 ,目前 的 研究 侧重 于 通过 分 析 
主题 强度 、 内 容 等 不 同 维度 的 特征 来 分 析 其 融合 .分 裂 
过 程 ,但 研究 主题 之 间 的 关联 关系 识别 以 及 主题 关系 
在 不 同 演 化 阶段 的 变化 有 待 进一步 深入 研究 ;在 主题 
演化 路 径 可 视 化 方面 ,目前 的 方法 主要 侧重 对 相 邻 时 
期 主题 的 关联 分 析 , 对 同一 时 间 窗 口 下 主题 的 相互 关 
系 的 分 析 成 果 较 少 。 针 对 目前 研究 中 的 局 限 ,本文 提 
出 一 种 基于 主题 类 别 划分 的 主题 识别 及 其 演化 路 径 可 
视 化 方法 ,对 上 述 不 足 加 以 改善 。 


2 基于 主题 类 别 划分 的 研究 主题 识别 及 
其 演化 路 径 可 视 化 方法 


2.1 方法 的 理论 依据 

期 刊 论文 的 关键 词 和 主题 词 是 其 核心 内 容 的 提 
炼 , 人 研究 主题 是 有 效 表征 学 科 知 识 的 基本 单元 。 因 此 ， 
可 以 通过 文献 计量 、 自 然 语 言 处 理 方 法 识别 蕴含 在 期 
刊 论文 中 的 研究 主题 ,分 析 某 领域 的 热点 、 前 沿 和 发 展 
趋势 。 

美国 海军 研究 所 (Office of Naval Research, ONR) 
的 R. N. Kostoff 等 “将 研究 主题 分 为 普遍 主题 (perva- 
sive themes) 和 副 主 题 ( sub-themes ) ,通过 实验 分 析 了 
两 种 主题 的 关系 :普遍 主题 和 副 主 题 具 有 紧密 的 关联 
关系 ,其 中 , 当 普 遍 主 题 发 生变 化 会 引起 副 主 题 的 变 
化 ,但 是 副 主题 的 变化 基本 不 会 引起 普遍 主题 的 变化 ; 
当 普遍 主题 保持 稳定 时 , 副 主题 也 可 能 会 发 生变 化 。 
普遍 主题 和 副 主 题 共 同 组 成 了 完整 的 领域 主题 网 络 ， 
在 主题 演化 分 析 中 ,区 分 研究 主题 的 主 次 关系 ,综合 
虑 两 者 的 协同 作用 能 够 提升 分 析 的 准确 性 和 有 效 性 。 

本 研究 借鉴 R. N. Kostoff 主题 分 析 研 究 的 基本 思 
想 ,根据 其 提出 的 “普遍 主题 "和 “ 副 主题 "概念 ,本 研 
究 中 按照 主题 的 重要 程度 将 论文 的 主题 划分 为 “核心 
主题 "和 “次 要 主题 ”两 类 ,提出 基于 主题 类 别 划分 理 
论 基础 的 核心 主题 识别 及 其 演化 路 径 可 视 化 方法 。 
2.2 方法 的 流程 与 思路 

基于 主题 类 别 的 核心 主题 识别 及 其 演化 路 径 可 视 
化 方法 基本 步骤 和 思路 为 :第 一 步 , 根 据 领域 确定 数据 
源 (数据 库 ) .检索 策略 和 时 间 区 域 等 ,进行 期 刊 论文 
数据 的 收集 整理 ;第 二 步 ,在 数据 预 处 理 和 划分 时 间 窗 
口 的 基础 上 ,利用 LDA 模型 进行 主题 识别 ;第 三 步 , 结 
合 多 维 尺 度 分 析 和 可 视 化 技术 将 LDA 主题 识别 结果 
映射 到 二 维 空间 ,识别 主题 之 间 的 关联 关系 ,确定 核心 
主题 次 要 主题 ;第 四 步 ,利用 主题 相似 度 算法 ,探测 相 
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邻 时 期 主题 之 间 的 关联 ,提出 一 种 新 的 主题 演化 路 径 
可 视 化 方法 ,构建 不 同类 型 研究 主题 的 交叉 演化 路 径 ， 
以 揭示 核心 主题 .次 要 主题 在 演化 过 程 中 关系 的 动态 
变化 。 

下 面 对 上 述 步 又 中 的 主要 内 容 进 行 具体 介绍 : 
2.2.1 基于 LDA 模型 的 研究 主题 识别 

近年 来 学 界 提出 了 不 少 主题 模型 ,如 潜在 语义 索 
引 上 (Latent Semantic Analysis ，LSA) 、 概 率 性 潜在 语 
义 索 引 '! ( probabilistic Latent Semantiec Analysis ，pL- 
SA) 和 LDA 模型 等 。 与 LSA 和 pLSA 模型 相 比 ,LDA 
模型 不 仅 能 预测 训练 集 文档 的 主题 分 布 而 且 能 够 有 效 
预测 非 训 练 集中 的 文档 和 词 的 主题 分 布 ,因此 ,LDA 模 
型 逐渐 成 为 分 析 大 规模 非 结 构 化 文档 集 的 主要 的 工具 

LOLDA 是 一 种 三 层 ( 词 .主题 和 文档 ) 贝 叶 斯 概率 模 

型 -该 模型 假设 文档 是 由 若干 隐 性 主题 组 成 ,而 主题 是 


向 表 中 的 所 有 词汇 组 成 。LDA 主题 模型 的 联合 分 布 


概 当 如 公式 (1) 所 示 5 

P(0,2,w) -P(glo) [IP(s,10)P(w, lz, ,8) (1) 
A h ,z 表示 主题 ,w 表示 主题 词 和 表示 第 m 个 文 
档 的 单词 数 目 ,9 为 参数 a 的 Dirichlet 分 布 采 样 。 由 于 


高 的 下 位 词 项 ,但 是 这 些 高 分 布 概率 的 词 项 往往 不 单 
独 属于 该 主题 ,也 会 同时 属于 其 它 主 题 。 参 数 入 计算 
方法 如 公式 (2) 所 示 ™: 


rhlA) =Alog( pm) + (1 -A)1og( 5 (2) 


其 中 ,w 表示 主题 词 ,we 11, 2,3...V | ;上 表示 
主题 ,ke |1, 2,3…K| ;om 表示 Gibbs 采样 参数 ;p, 表 
示 主 题词 w 的 分 布 概率 。 
2.2.3 ”核心 主题 ,次 要 主题 演化 路 径 可 视 化 

在 前 文 的 主题 演化 路 径 可 视 化 相关 研究 分 析 基 础 
上 可 知 , 目 前 ThemeRiver .Textflow'” 和 NEViewer 等 演 
化 路 径 可 视 化 方法 模型 主要 侧重 对 相 邻 时 期 主题 的 关 
联 分 析 ,并 且 将 所 有 主题 等 同 对 待 ,难以 有 效 分 析 同 一 
时 间 窗 口 下 的 主题 的 相互 关系 以 及 不 同类 型 主题 的 演 
化 关系 。 因 此 ,本 文 提出 一 种 新 的 领域 核心 研究 主题 
识别 及 其 演化 路 径 可 视 化 方法 :基于 R 语言 的 流 式 图 
形 分 析 核心 主题 .次 要 主题 演化 路 径 的 可 视 化 方法 ,该 
方法 能 够 有 效 揭示 核心 主题 .次 要 主题 在 演化 过 程 中 
分 裂 .融合 等 关系 的 动态 变化 。 
与 现 有 的 主题 演化 路 径 可 视 化 方法 模型 相 比 ,本 
文 设计 的 演化 路 径 可 视 化 图 谱 能 够 分 析 某 一 类 型 研究 
主题 随时 间 推 移 的 流动 模式 , 且 可 以 分 析 核 心 主题 ,次 


LO 主题 模型 相 较 于 其 他 主题 识别 方法 ( 比如 关键 记 
来 类 .社区 探测 等 ) 能 够 更 加 准确 、 高 效 的 分 析 文 本 主 
是 大 此, 本文 之 后 将 基于 Python 的 scikit-leam 工具 包 
进 往 医 疗 健康 信息 领域 的 主题 识别 。 
2.222 基于 MDS 的 核心 研究 主题 识别 

-二 LDA 主题 识别 的 结果 一 般 难 以 直接 分 析 不 同 主题 
之 间 的 关联 关系 ,为 了 获得 研究 主题 中 的 核心 主题 ,本 
文 在 上 一 步 LDA 主题 识别 结果 的 基础 上 ,采用 多 维 尺 
度 分 析 ( Multidimensional scaling ,MDS ) ,利用 主题 间 的 
相似 性 构建 低 维 空间 ,使 得 LDA 主题 在 此 空间 的 距离 
和 在 高 维 空间 中 的 LDA 主题 之 间 的 相似 性 尽 可 能 所 
保持 一 致 ,从 而 可 视 化 LDA 主题 的 相互 关系 ,直观 地 
识别 核心 主题 。 

本 研究 中 使 用 Python 下 的 pyLDAvis 工具 包 来 绘 

制 动 态 交互 式 的 LDA 主题 可 视 化 图 谱 , 分 析 研究 主题 
之 间 的 关联 关系 ,从 而 识别 核心 研究 主题 以 及 次 要 研 
究 主题 。pyLDAvis 可 以 通过 调节 参数 入 (0 < A < 1) 
来 控制 主题 -词语 关联 度 relevance( term w | topic D) ， 
即 可 以 控制 显示 某 一 主题 的 不 同 的 下 位 词 项 。A =0 
时 ,显示 主题 下 特有 的 、 相 对 独立 的 下 位 词 项 , 即 这 些 
词 项 往往 只 出 现在 该 主题 ; = 1 时 ,显示 分 布 概率 更 


要 主题 等 不 同类 型 研究 主题 之 间 的 交叉 演化 脉络 , 展 
示 关 联 关系 的 动态 变化 过 程 。 

可 视 化 的 基本 样式 见 图 1, 其 中 , 块 代 表 主 题 , 块 
之 间 的 流 式 图 形 代表 随 着 时 间 的 推移 这 些 主 题 的 演化 
路 径 ( 关 联 变化 ) ,粗细 表示 主题 之 间 的 关联 强度 ; 块 
的 高 度 表示 主题 的 强度 (文献 概率 分 布 越 高 ,主题 块 越 
大 ) ;核心 研究 主题 添加 “核心 ”标签 ,次 要 研究 主题 添 
加 “次 要 ”标签 。 


3 ”主题 识别 和 主题 演化 可 视 化 方法 在 医 
疗 健康 信息 领域 的 应 用 


3.1 数据 源 及 其 预 处 理 

本 文选 择 CNKI 期 刊 全 文 数据 库 作为 数据 源 , 收 
集 题名 ,关键 词 和 摘要 等 关键 题 录 信 息 。 具 体检 索 策 
略 如 下 :检索 数据 库 : CNKI; 检索 策略 :主题 = “医疗 
健康 信息 ”; 时 间 跨 度 无 限制 ;检索 结果 :704 篇 ;检索 
时 间 :2018 年 6 月 3 日。 得 到 文献 数量 年 度 分 布 见 
图 2。 


目前 研究 者 进行 主题 识别 和 演化 分 析 , 需 要 划分 
时 间 窗 口 以 明确 主题 演化 的 时 间 维 度 (将 期 刊 论文 数 
据 划 分 到 奉 干 连续 的 子 时 期 ) ,划分 时 间 窗 口 的 方法 主 
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图 1 核心 次 要 主题 演化 路 径 可 视 化 示例 
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要 吞 根据 数据 的 时 间 标 签 确定 ,按照 年 度 固定 时 间 窗 
两 种 方法 > 。 本 文采 用 按照 年 度 固定 时 间 窗 
口 蕉 方法 ,将 检索 结果 划分 为 四 个 子 时 期 ,各 个 子 时 其 


从 从 和 文献 数量 如 下 1 所 示 : 
到 表 1 主题 识别 与 演化 子 时 期 划分 
CS 时 期 年 份 (年 ) 文献 数量 (篇 ) 
GO I 1996 — 2009 68 
I 2010 -2012 12 
II 2013 -2015 241 
IV 2016 -2018 283 


由 于 2010 年 以 前 ,国内 医疗 健康 信息 相关 研究 较 
少 ,因此 划分 1996 - 2009 年 为 子 时 期 1(68 篇 ) ,2010 
年 以 后 研究 成 果 逐 渐 增 多 ,所 以 每 三 年 划分 为 一 个 子 
时 期 ,2010 - 2012 年 为 子 时 期 I(112 篇 ) ;2013 - 2015 
年 为 子 时 期 II(241 篇 ) ;2016 - 2018 年 为 子 时 期 IV 
(283 篇 ) 。 

由 于 主题 识别 仅 需 要 分 析 文 本 字段 ,所 以 单独 抽 
取出 题名 .关键 词 和 摘要 ,对 下 载 的 四 个 子 时 期 的 期 刊 
论文 进行 数据 预 处 理 ,为 主题 识别 做 准备 ,处 理 内 容 主 
要 包括 格式 转换 去 重 .去除 停 住 词 和 标点 符号 等 。 
3.2 基于 LDA 模型 的 医疗 健康 信息 研究 主题 识别 

本 文 利用 Python 的 jieba 分 词 工具 包 进 行 中 文 分 


La 
105 112 
83 
53 
42 
34 36 34 
Lal 


1996 2000 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 


2 论文 数量 年 度 分 布 


词 后 再 进行 LDA 主题 识别 。 为 了 提高 分 词 结果 的 准 
确 性 ,基于 第 一 步 收集 的 医疗 健康 信息 领域 期 刊 论 文 
的 关键 词 构建 分 词 词典 (关键 词 是 期 刊 论文 内 容 的 高 
度 概 括 与 凝练 ,与 jieba 工具 包 自 带 的 分 词 词典 相 比 更 
加 准确 保持 作者 所 想 表达 的 主要 词汇 ) ,该 词典 的 基本 
格式 为 词 - 词 频 - 词性 ,由 于 本 研究 不 涉及 词性 分 析 
因此 忽略 词性 , 自 定义 词典 以 txt 格式 保存 ,通过 jieba. 
load_userdict(“dict. txt”) 进行 调用 。 

利用 Python 的 jieba 分 词 工 具 包 进行 中 文 分 词 后 ， 
利用 Python 的 scikit-leam 工具 包 进 行 LDA 主题 识别 
(按照 所 划分 的 四 个 时 期 依次 进行 LDA 主题 识别 )。 
经 过 处 理 之 后 ,各 个 子 时 期 的 LDA 主题 识别 结果 中 ， 
每 个 时 期 只 展示 了 医疗 健康 信息 领域 相关 的 部 分 研究 
主题 (本 文 只 列举 前 5 个 ,下 位 词 表 中 展示 部 分 ) ,后 面 
是 其 对 应 的 关键 词 和 下 位 关键 词 ,按照 出 现 频率 排序 ， 
见 表 2。 
3.3 基于 MDS 的 医疗 健康 信息 相关 领域 核心 研究 主 
题 识别 结果 

为 了 更 好 地 分 析 LDA 主题 之 间 的 相互 关系 ,在 上 
一 步 LDA 主题 识别 结果 的 基础 上 ,基于 多 维 尺度 分 析 
( Multidimensional scaling, MDS ) 构建 LDA 主题 低 维 空 
间 分 布 ,来 可 视 化 LDA 主题 的 相互 关系 ,发现 我 国医 
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起 伟 尖 天 


表 2 我 国医 疗 健康 信息 相关 领域 不 同时 期 研究 主题 及 下 位 关键 词 列 表 ( 部 分 ) 


时 期 (年 ) 主题 关键 词 
工时 期 (1996 -2009) 健康 档案 健康 档案 | 健康 传播 | 信息 技术 | 区 域 医疗 1 老年 人 | 贫困 地 区 | 大众 传媒 | 发 达 国 家 | 医疗 服务 
健康 平台 卫生 局 1B2C1 健 康 网 | 医疗 健康 服务 1 看 病 难 | 统一 标准 | 健康 信息 资源 平台 | 安阳 市 | 看 病 贵 
健康 管理 健康 管理 | 居民 健康 信息 系统 1 消费 者 | 医疗 信息 | 特需 医疗 服务 |! 非 营 利 | 调查 报告 | 联合 会 
健康 信息 工作 医疗 健康 信息 1 老年 慢性 病 | 健 康信 息 1 远 程 关怀 1 网 络 健康 信息 1 成 长 之 路 1 信息 工作 
健康 医疗 信息 健康 医疗 信息 1 医疗 档案 | 控制 权 | 金 卫 网 | 隐私 权 | 高 速 公路 | 医疗 网 络 | 个 人 信息 1 国家 级 1 综合 性 
工时 期 (2010 -2012) 电子 健康 档案 电子 健康 档案 | 医疗 机 构 1 医 疗 服务 1 信息 技术 | 云 计算 1 健康 信息 1 电子 健康 1 健康 档案 
互联 网 信息 平台 一 卡通 | 医疗 保健 | 信息 平台 | 医疗 健康 | 中 医 临床 信息 标准 1 电子 健康 档案 | 体 域 网 | 互联 网 
互联 网 健康 传播 双向 转 诊 1 健康 传播 | 健康 信息 1 互联 网 | 健康 信息 资源 平台 | 健康 监护 |! 云 平台 | 体 域 网 
健康 生活 方式 健康 生活 方式 1 宁波 市 | 信息 资源 | 物 联网 | 医疗 健康 1 医疗 保健 | 电子 健康 1 居民 健康 
电子 健康 电子 健康 档案 | 医疗 机 构 1 医 疗 服务 1 信息 技术 | 云 计算 1 健康 信息 1 电子 健康 1 健康 档案 
严 时 期 (2013 -2015) 医疗 健康 信息 化 医疗 健康 1 健康 档案 | 健康 信息 1 信息 化 | 移动 健康 1 服务 模式 | 云 计 算 |1 大 数据 | 居民 健康 档案 
电子 医疗 老年 人 | 医 养 一 体 化 1 信息 平台 | 医疗 信息 1 居家 养老 | 医药 电子 商务 1 新 媒体 | 医疗 服务 
二 智慧 医疗 HADOOPI1 智 慧 医疗 ! 云 计算 1 医疗 服务 1 健康 信息 1 个 人 健康 信息 管理 1 电子 健康 档案 
IO 健康 管理 健康 管理 | 居民 健康 卡 | 云 计算 1 健康 信息 1UGC1 网 络 健康 社区 | 互联 网 | 社交 媒体 | 健康 教育 
cp 移动 医疗 移动 医疗 1APP1 健 康 传播 | 健康 信息 1 健康 管理 | 医疗 健康 | 移动 互联 网 | 穿戴 式 | 信 息 平台 
VNM(2016 -2018) 互联 网 医疗 医疗 健康 | 互联 网 医疗 | 大 数据 | 互联 网 | 医疗 服务 1 大 数据 应 用 | 健康 监测 1 医疗 大 数据 
OO 电子 健康 素养 使 用 意愿 | 病 患 者 ! 电 子 健康 素养 1 智能 健康 管理 | 移动 医疗 服务 | 自我 效能 1020 医疗 服务 
< 十 健康 管理 健康 管理 | 健康 管理 服务 业 1 健 康 云 1 传染 病 患 者 | 医疗 服务 1 电子 健康 档案 | 服务 平台 
健康 信息 获取 互联 网 1 健康 信息 1 健康 信息 获取 1| 教 职工 | 公共 服务 1 信息 技术 1 影响 因素 1 医疗 服务 网 站 
CN 健康 素养 健康 信息 1 影响 因素 1 健康 素养 | 健康 险 | 正确 率 | 校 医院 1 糖尿 病 1 病 患者 | 可 穿戴 设备 


痒 拓 康信 息 相关 领域 各 个 时 期 的 核心 研究 主题 。 
三 具体 数据 处 理 过 程 是 ,基于 LDA 主题 识别 结 
使 时 Python 下 的 pyLDAvis 工具 包 分 别 绘制 四 个 子 时 
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期 的 交互 式 LDA 主题 可 视 化 图 谱 , 如 图 3、 图 4、 图 5 和 
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6 所 示 ( 图 中 各 时 期 主题 列举 5 个 ,为 手动 添加 ;下 
位 词 列举 30 个 )。 
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图 34.5.6 中 左 侧 的 大 圈 代 表 了 核心 主题 , 而 小 

圈 代 表 了 次 要 主题 ,由 于 每 个 时 期 的 文献 和 研究 主题 

在 数量 上 存在 一 定 差距 因此 圈 的 数量 也 不 同 ; 右 侧 是 

每 个 主题 的 下 位 词 项 。 可 以 据 此 对 我 国医 疗 健康 信息 
领域 不 同时 期 的 核心 研究 主题 进行 简要 分 析 : 

I 时 期 的 核心 主题 为 健康 档案 ,健康 平台 、 健 康 管 
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1. saliency(tern w) = frequency(w) * [sumt p(t | w) * log(p(t | w/p(t))] for topics t; see Chu 
2. relevance(tern w | topic t) = 入 +ptw | t)+ (1 -NN) *#plw | t)/p(w; see Sievert & Shirley 


亚 时 期 主题 可 视 化 


理 等 ,该 时 期 医疗 健康 的 相关 研究 逐渐 开展 ,相关 研究 
较为 欠缺 ; 时 期 的 核心 研究 主题 是 电子 健康 档案 、 互 

联网 信息 平台 \ 互 联网 健康 传播 等 ,由 于 技术 的 发 展 该 
阶段 的 研究 主题 基于 新 技术 有 了 新 的 研究 内 容 ; 亚 时 
期 的 核心 主题 为 医疗 健康 信息 化 ,电子 医疗 .智慧 医疗 
等 , 随 着 信息 技术 的 进一步 发 展 ,电子 健康 进一步 发 展 
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论文 为 例 [J]. 图 书 情报 工作 ,2020,64(5):89 -99. 


家 二 由 全 人 期 天 


Selected Topic: 1 Previous Topic || Next Topic || Clear Topic 


医疗 健康 信息 领域 主题 可 视 化 图 庶 (IV 时 期 ) 


图 6 


现 了 智慧 医疗 ;区 时 期 的 核心 研究 主题 是 互联 网 
.电子 健康 素养 .健康 管理 等 ,该 时 期 依托 技术 , 互 
医疗 的 研究 进一步 增多 ,并 且 公 众 对 健康 愈加 重 
视 S 由 于 互联 网 技术 的 发 展 公 众 获取 健康 信息 更 加 便 
利 5 因 此 关于 健康 素养 的 相关 研究 逐渐 增多 。 
3 到 我 国医 疗 健康 信息 相关 领域 研究 主题 演化 可 视 
化 辆 析 
3, 和 后。 核心 主题 ,次 要 主题 交叉 演化 分 析 
- 导 对 我 国医 疗 健康 信息 相关 领域 四 个 时 期 的 核心 研 
究 圣 题 识别 结果 基础 上 ,基于 本 研究 提出 的 核心 主题 、 
次 要 主题 交叉 演化 路 径 可 视 化 方法 绘制 演化 脉络 图 ， 
从 而 分 析 我 国医 疗 健康 信息 领域 在 各 个 时 期 的 核心 研 
究 主题 及 其 发 展演 化 过 程 ,如 图 7 所 示 ( 彩 图 网 址 :ht- 
tps ://www. informationscience. top/ topicevlution. html ) 。 

图 7 中 的 核心 主题 以 及 次 要 主题 选取 的 是 基于 
LDA 模型 的 医疗 健康 信息 研究 主题 识别 以 及 基于 
MDS 的 医疗 健康 信息 核心 研究 主题 识别 的 重 冯 主 题 
(车 某 时 期 无 此 主题 则 计算 主题 相似 度 用 相似 度 最 高 
的 相关 主题 代替 ) ,根据 图 7 可 以 看 出 ,每 个 时 期 的 核 
心 主题 与 次 要 主题 是 不 断 发 展 和 变化 的 ,下 面 将 对 几 
个 代表 性 主题 进行 具体 分 析 : 

(1 ) 电 子 健康 档案 。 电 子 健康 档案 在 II 时 期 属 
于 次 要 研究 主题 , 随 着 技术 的 发 展 II 时 期 后 转变 为 核 
心 研究 主题 。 目 前 该 部 分 的 研究 主要 包括 两 个 方面 ， 
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IY 时 期 主题 可 视 化 


第 一 是 国内 外 电子 健康 档案 建设 的 对 比 研究 以 及 国内 
的 电子 健康 档案 建设 相关 经 验 ,介绍 国外 主要 国家 居 
民 电 子 健康 档案 的 共享 服务 体系 建设 ,为 我 国共 享 服 
务 体 系 建设 提出 建议 ;第 二 是 电子 健康 档案 和 电子 健 
康 档案 管理 系统 的 建立 ,电子 健康 系统 体系 结构 描述 
了 电子 健康 档案 的 总 体 技术 构成 及 其 技术 要 素 间 的 相 
互 关 系 ,是 电子 健康 档案 的 核心 技术 之 一 。 

(2) 互 联网 医疗 。 互 联网 医疗 是 在 并 技术 的 迅猛 
发 展 ,移动 通信 进入 4G 时 代 , 互 联网 应 用 演变 至 互联 
网 + ,大 数据 、 云 计算 技术 快速 发 展 和 普及 的 背景 下 发 
展 起 来 的 ,因此 与 电子 健康 档案 的 演化 脉络 相似 都 是 
在 II 时 期 后 转变 为 核心 研究 主题 。 目 前 互联 网 医疗 
运用 先进 的 信息 化 手段 和 互联 网 + 应 用 平台 提升 医疗 
资源 的 使 用 效率 ,提高 救治 和 服务 水 平成 为 近期 我 国 
医疗 卫生 行业 发 展 的 重要 方向 ,新 时 期 下 技术 因素 在 
互联 网 医疗 的 应 用 推广 过 程 中 起 着 至 关 重 要 的 作用 ， 
如 何 构 建 能 长 期 健康 持续 发 展 的 互联 网 医疗 产业 发 展 
模式 值得 我 们 去 研究 。 

(3 ) 健康 传播 。 健 康 传播 除了 在 工时 期 变 为 次 要 
研究 主题 ,其 他 时 期 皆 为 核心 研究 主题 ,该 主题 作为 传 
播 学 的 新 兴 分 支 , 因 其 与 个 人 生活 的 紧密 关联 和 重大 
社会 影响 力 而 受到 广泛 关注 ,在 每 个 时 期 都 是 比较 重 
要 的 研究 热点 。 但 目前 国内 的 健康 传播 研究 还 停 
留 在 描述 现象 .个 案 讨 论 和 概括 此 领域 宏观 特征 的 初 
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7 电子 健康 档 3 
ee 一 
! = 时 期 ， ”四 时 期 ， 
pA 图 7 我 国医 疗 健康 信息 相关 领域 核心 .次 要 研究 主题 演化 脉络 
六 名 牙 。 探 讨 如 何在 理论 关照 下 开展 健康 传播 研究 ， 利用 新 技术 ,在 不 久 的 将 来 也 极 有 可 能 出 现 新 的 研究 
探索 健康 信息 传播 过 程 中 .健康 行为 发 展 过 程 中 的 重 | 内 容 。 
驶 咒 山 因素 ;考察 人 与 信息 .人 与 人 、 人 与 社会 的 互动 ，| 3.4.2 发 展 趋 势 


以 爱 健 康信 息 传播 带 来 的 人 的 观念 .态度 ,行为 的 变化 
净 是 十 分 重要 的 问题 。 

(4) 移 动 医疗 。 移 动 医疗 是 指 通 过 使 用 移动 通信 
2 


, 仅 通 过 几 个 简单 的 APP 就 能 实现 ,技术 成 本 较 
低 ,简便 易 用 ,因而 在 演化 阶段 一 直属 于 核心 研究 主 
题 。 目 前 研究 主要 集中 于 ”” :第 一 ,移动 医疗 的 具 
体 实 施 过 程 研究 进行 详细 的 移动 医疗 健康 需求 分 析 总 
结 出 应 用 软件 设计 和 移动 医疗 健康 发 展 的 重点 ;第 二 ， 
梳理 国内 外 移动 医疗 应 用 产业 的 现状 ,探究 其 典型 应 
用 的 发 展 模式 ,并 对 关键 要 素 展 开 分 析 , 提 出 符合 我 国 
国情 的 发 展 建议 ;第 三 ,对 移动 医疗 的 用 户 进 行 分 析 研 
究 ,探索 面向 不 同 用 户 的 个 性 化 移动 医疗 健康 服务 。 

根据 以 上 分 析 , 研 究 主题 类 型 的 变化 与 技术 的 发 
展 上 县 息 相 关 ,电子 健康 档案 .互联 网 医疗 基于 新 技术 逐 
浙 成 为 医疗 健康 领域 的 核心 研究 主题 ;健康 传播 移动 
医疗 作为 各 个 阶段 的 核心 研究 主题 在 技术 的 发 展 下 有 
了 新 的 研究 内 容 ; 关 于 医疗 健康 信息 的 研究 因为 该 主 
题 与 技术 的 相关 度 小 于 其 他 主题 故而 一 直属 于 次 要 研 
究 主题 ,但 就 目前 的 研究 内 容 来 看 ,该 主题 也 逐渐 开始 


近年 来 , 随 着 互联 网 技术 的 不 断 发 展 ,医疗 健康 信 
息 领 域 的 研究 主题 也 在 不 断 变化 ,新 技术 主题 不 断 涌 
现 并 呈现 出 不 断 增长 的 演化 趋势 ,而 部 分 主题 由 于 新 
技术 主题 的 冲击 逐渐 衰落 ,此 外 ,部 分 重点 研究 主题 依 
然 保持 良好 的 发 展 势头 ,在 上 一 步 核心 .次 要 主题 分 析 
的 基础 上 ,对 核心 研究 主题 的 发 展 趋势 进行 可 视 化 分 
析 ,如 图 8 所 示 ( 彩 图 网 址 : https://www. information- 
science. top/ yh. html) 。 

根据 图 8 ,选取 5 个 典型 的 研究 主题 分 析 其 发 展 趋 
势 , 这 5 个 主题 可 以 分 为 三 类 :第 一 类 是 医疗 健康 领域 
的 重点 研究 主题 ,该 类 研究 主题 并 未 随 着 社会 发 展 而 
消失 ,反而 在 新 技术 的 影响 下 有 了 新 的 研究 内 容 ;第 二 
类 是 技术 发 展 背景 下 产生 的 新 的 研究 主题 ,该 类 研究 
主题 依赖 于 技术 的 发 展 , 是 时 代 发 展 的 必然 产物 ;第 三 
类 是 消失 的 研究 主题 ,该 类 研究 主题 的 发 展 趋势 也 是 
受 技 术 发 展 的 影响 ,在 新 时 期 被 更 为 先进 的 技术 所 取 
代 , 也 是 时 代 发 展 的 必然 过 程 。 

(1) 健康 管理 。 健 康 管理 一 直 以 来 都 是 医疗 健康 
言 息 领域 的 研究 重点 , 随 着 时 间 的 演化 呈现 出 逐渐 增 
多 的 趋势 。 过 去 的 期 刊 论文 介绍 国外 健康 管理 的 做 法 
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起 伟 尖 天 


我 国医 疗 健康 信息 领域 主题 深化 图 (时 期 -IV 时 期 ) 
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© 
© 图 8 我 国医 疗 健康 信息 相关 领域 核心 研究 主题 发 展 趋势 


是 
变 , 期 刊 论文 的 研究 成 果 体现 了 健康 管理 在 新 的 
pe ee 
3 了 末 健 康 服务 理念 和 服务 方式 。 健 康 管理 一 直 是 大 众 
比较 关注 的 领域 ,因此 其 在 演化 的 过 程 中 始终 保持 上 

头 。 健 康 管理 服务 业 ”! 以 消费 者 健康 需求 为 导 
向 (区 多 元 目标 取代 单一 的 经 济 目标 ,是 人 类 自身 进步 
与 既 济 .社会 协调 发 展 的 产业 创新 发 展 模式 、 人 本 发 展 
ee ee 
多 树 化 正在 形成 的 初级 阶段 。 在 此 背景 下 ,健康 管理 
服务 的 发 展 带动 了 学 者 对 健康 管理 服务 系统 的 研究 ， 
目前 主要 集中 于 以 下 几 个 方面 :第 一 ,以 各 类 疾病 的 治 
疗 为 核心 的 医疗 健康 管理 服务 系统 ;第 二 ,健康 管理 服 
务 技术 ;第 三 ,健康 管理 系统 或 体系 的 构成 及 比较 研 
究 。 

(2) 智 慧 医 疗 。 智 慧 医 疗 目前 主要 有 以 下 几 个 研 
究 内 容 : 第 一 ,对 我 国 智慧 医疗 的 发 展现 状 和 趋势 进行 
总 结 分 析 , 并 对 国内 外 的 建设 现状 进行 对 比 ,借鉴 国外 
智慧 医疗 建设 的 有 益 经 验 提 出 相关 可 行 的 建设 性 建 
议 ;第 二 ,介绍 智慧 医疗 的 起 源 和 概念 ,从 便捷 的 医疗 
服务 体系 、 人 性 化 健康 管理 体系 专业 化 的 业务 应 用 体 
系 .科学 化 的 监督 管理 体系 、 高 效 化 的 信息 支撑 体系 、 
规范 化 的 信息 标准 体系 、 常 态 化 的 信息 安全 体系 几 方 
面 探索 智慧 医疗 的 应 用 ,在 此 基础 上 提出 发 展 建议 。 


智慧 医疗 是 信息 技术 与 医疗 健康 服务 和 管理 的 深 
入 融合 ,并 在 国家 的 大 力 支 持 下 取得 了 较 快 的 发 展 ,对 
医疗 服务 模式 .卫生 管理 方式 \ 居 民 健康 管理 等 产生 了 
深刻 影响 ,但 在 医疗 数据 、 系 统 安 全 、 建 设 保障 、 资 源 共 
享 , 评 价 体 系 等 方面 仍 存 在 一 些 问题 与 挑战 。 因 此 , 管 
慧 医 疗 在 未 来 的 发 展 道路 上 , 仍 需 政府 加 强 宏观 指导 、 
扩大 信息 共享 范围 ,以 更 好 地 满足 患者 的 需求 。 智 悲 
医疗 是 近年 来 逐渐 增多 的 研究 主题 ,其 出 现 和 发 展 与 
互联 网 + 、 大 数据 等 技术 密 不 可 分 ,是 新 时 代 的 产物 。 

(3) 医 疗 大 数据 。 医 疗 大 数据 是 大 数据 环境 下 的 
必然 产物 ,是 近 几 年 医疗 健康 信息 领域 新 的 研究 热点 
与 重点 。 医 疗 大 数据 作为 大 数据 中 极其 重要 的 一 部 
分 , 它 的 应 用 不 仅仅 是 医疗 方面 的 数据 信息 ,还 包括 了 
卫生 事业 、 生 命 健康 数字 化 存储 的 海量 数据 。 医 疗 大 
数据 的 研究 主要 为 以 下 几 个 方面 :第 一 ,医疗 大 数据 的 
研究 现状 及 发 展 趋势 的 综述 性 研究 。 通 过 国内 外 医疗 
大 数据 的 相关 研究 ,明确 国内 医疗 大 数据 的 发 展现 状 、 
研究 热点 并 预测 未 来 的 发 展 趋势 ;明确 医疗 大 数据 在 
未 来 发 展 过 程 中 可 能 遇 到 的 机 遇 和 挑战 ,制定 相关 措 
施 实 现 最 大 化 发 展 ;医疗 大 数据 对 其 他 相关 领域 的 贡 
献 研究 。 第 二 ,医疗 大 数据 下 的 医疗 服务 模式 。 以 建 
设 临 床 数据 中 心 为 切入 点 ,以 临床 数据 中 心 为 建设 核 
心 的 医疗 大 数据 平台 ,医疗 大 数据 平台 的 建设 研究 成 
为 新 的 热点 ”。 第 三 ,医疗 大 数据 中 的 隐私 保护 问题 
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研究 。 因 此 医疗 大 数据 的 研究 将 是 未 来 几 年 内 的 研究 
热点 。 

(4) 医 疗 信息 技术 。 医 疗 信息 技术 是 将 信息 技术 
引入 医疗 领域 ,构建 新 的 医疗 服务 模式 ,提供 更 好 的 医 
疗 信息 服务 技术 。 医 疗 信息 技术 的 研究 最 早出 现 于 上 
个 世纪 九 十 年 代 ,在 该 时 期 信息 技术 已 逐渐 开始 向 各 
个 领域 渗透 。 医 疗 领域 顺应 时 代 发 展 引入 信息 技术 促 
进 了 医疗 健康 行业 的 发 展 。 随 着 信息 技术 的 进一步 发 
展 , 医 疗 信息 技术 热点 逐渐 转向 智慧 医疗 .医疗 大 数据 
等 领域 开展 深度 研究 ,期 刊 论文 中 单纯 对 医疗 信息 技 
术 的 研究 逐渐 减少 。 

(5) 区 域 卫生 信息 化 。 区 域 卫生 信息 化 与 医疗 信 
息 技术 的 发 展 类 似 ,技术 的 发 展 和 公众 的 需求 催生 了 
该 研究 主题 ,同样 因为 技术 的 不 断 发 展 和 公众 日 益 迫 
切 缮 需求 而 转向 其 他 领域 。 区 域 卫生 信息 化 的 研究 范 
转世 经 逐渐 由 小 区 域 小 范围 上 升 到 国家 层面 甚至 国际 
藤 兽 “区 域 ” 的 含义 已 经 逐渐 发 生 改变 ,由 更 多 的 词 
62 情 禁 “区 域 " 一 词 ,因此 该 研究 主题 的 论文 近年 来 出 
现 于 大 幅 缩减 。 
〇 根据 以 上 分 析 , 二 十 年 来 医疗 健康 信息 领域 的 研 
只 如 是 发 生 了 重大 变化 ,研究 主题 的 变化 与 技术 发 展 
存 囊 这 不 可 分 的 关系 。 新 技术 不 断 为 医疗 健康 信息 令 
域 浏 和 新 的 活力 ,对 改善 医疗 服务 模式 ,提高 健康 服务 
水 这 以 及 提升 公众 健康 素养 都 有 着 重要 的 意义 。 但 是 
抄 洒 的 发 展 也 在 一 定 程度 上 带 来 了 巨大 挑战 ,公众 隐 
私 G 蜂 疗 数据 泄露 等 都 极 大 地 考验 着 从 业者 的 专业 素 


溢 重 点 思考 的 问题 。 
4 讨论 与 总 结 


本 文中 提出 的 方法 借鉴 Kostoff 主题 分 析 相 关 研 
究 的 基本 思想 ,将 研究 主题 划分 为 核心 主题 和 次 要 研 
究 主题 ,基于 MDS 构建 LDA 主题 识别 结果 的 关联 关系 
探测 核心 研究 主题 ,与 目前 基于 Citespace .UCINET 和 
SPSS 等 工具 的 核心 研究 主题 识别 及 其 可 视 化 分 析 方 
法 相 比 ,本 方法 对 研究 主题 之 间 的 关联 关系 及 其 在 不 
同 演化 阶段 的 变化 作 了 进一步 深入 研究 。 此 外 ,本 文 
基于 R 语言 提出 一 种 针对 核心 主题 .次 要 主题 交叉 演 
化 的 可 视 化 方法 ,能够 可 视 化 展示 领域 研究 主题 的 发 
展演 化 脉络 ,以 及 不 同时 间 段 内 核心 主题 .次 要 主题 的 
动态 变化 过 程 。 基 于 大 量 科技 文献 数据 的 核心 技术 主 
题 识别 及 其 演化 可 视 化 方法 ,有 助 于 识别 某 领 域 的 核 
心 研究 内 容 、 分 析 核 心 研 究 内 容 的 发 展 方向 ,是 进行 科 


学 创新 的 基础 情报 工作 ,具有 较 大 的 应 用 价值 。 

本 研究 主要 存在 两 点 局 限 : 首 先 ,LDA 主题 识别 结 
果 ( 者 干 主题 词 的 组 合 ,解读 困难 ) 的 解读 依赖 分 析 人 
员 的 专业 知识 ,因此 ,需要 探索 更 加 有 效 的 主题 识别 方 
法 ,提高 结果 的 语义 信息 量 , 以 便于 解读 ;其 次 ,研究 中 
对 于 核心 主题 .次 要 主题 的 划分 还 有 待 进一步 细 化 , 比 
如 次 要 研究 主题 可 以 分 为 新 兴 主 题 、 衰 退 主 题 等 。 后 
续 研 究 可 以 进一步 探索 利用 语义 增强 的 LDA 模型 进 
行 主题 识别 以 提高 结果 的 可 解读 性 ,并 尝试 结合 主题 
演化 生命 周期 划分 方法 对 主题 类 型 进行 多 层次 划分 增 
加 主题 演化 分 析 的 维度 。 
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Be Abstract: | Purpose/ significance | This paper proposes the identification of the core research topics and their e- 
&olution path visualization methods, in order to provide reference for the field subject evolution analysis research, 
which has certain significance for revealing the evolution characteristics and development laws of the core topics. 
| Method/process | Using the LDA model for topic recognition and combining multi-dimensional scaling analysis and 
visualization techniques to map LDA topic recognition results to two-dimensional space. The topic similarity algorithm 
was used to detect the association between adjacent time topics, a new visual display method was proposed. We con- 
structed cross-evolution paths of different types of research topics to reveal the dynamic changes of core topics and 
secondary topics in the evolution process. | Result/conclusion | Taking the medical health information field in China 
as an example, the research results show that the core research topics in the field of medical and health information in 
China mainly include electronic health records and Internet medical treatment. Among them, core themes such as 
health management and smart medical treatment show a good development trend. 
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